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摘要 : 随 着 AIGC 技术 的 快速 发 展 , WA ike A fi 8] EL Ua A SRA Fe. 因此 ， 
大 量 人 脸 防 伪 检 测算 法 被 提出 用 于 伪造 人 脸 视 频 的 检测 . 然而 如 何 有 效 评估 re 
法 的 有 效 性 与 可 应 用 性 , 仍 面临 着 诸多 挑战 . 为 有 效 推动 人 脸 防 伪 检 测 成 效 的 量化 评估 与 防 
伪 检 测 技术 迭代 发 展 , 本 文 提出 了 一 项 面向 人 脸 视频 防伪 检测 的 大 规模 中 文 数据 评测 基准 ， 
发 布 了 全 球 首 个 CHN-DF 中 文 数 据 集 (https://github. com/HengruiLou/CHN-DP) . 填补 了 人 
脸 视频 防伪 数据 集 在 大 规模 中 文 数 据 方面 的 空白 . 本 文 详细 介绍 了 构建 CHN-DF 数据 集 和 中 
文 数 据 评测 基准 的 流程 , 并 通过 实验 验证 了 CHN-DF 数据 集 的 复杂 性 和 贴近 真实 场景 水 平 . 期 
望 该 评测 基准 能 帮助 研究 人 员 构 建 更 实用 有 效 的 人 脸 视 频 防伪 检测 模型 , 推动 防伪 检测 领域 
技术 发 展 . 同时 , 本 文 指出 了 中 文人 脸 视频 防伪 检测 基准 数据 集 和 防伪 检测 技术 所 面临 的 挑 
战 , 提出 了 未 来 可 能 的 研究 方向 , 为 推动 人 脸 视频 防伪 检测 技术 发 展 提供 了 有 益 思路 . 
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Abstract: With the rapid development of AIGC (Artificial Intelligence Generated 
Content) technology, hyper-realistic forged facial videos have become capable of 
deceiving human visual perception. As a result, a significant number of facial 
anti-forgery detection algorithms have been proposed for the identification of these 
fake facial videos. However, effectively evaluating the efficacy and applicability 
of these forgery detection algorithms remains a substantial challenge. To 
effectively promote the quantitative assessment of facial anti-forgery detection 
performance and the iterative development of anti-forgery technologies, this paper 
introduces a large-scale Chinese data benchmark for facial video anti-forgery 


identification and releases the world's first  CHN-DF Chinese dataset 
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(https://github. com/HengruiLou/CHN-DF), filling the gap in facial video 
anti-forgery datasets in terms of large-scale Chinese data. The paper details the 
process of constructing the CHN-DF dataset and the Chinese data evaluation benchmark 
and validates the complexity and realism of the CHN-DF dataset through experiments. 
It is hoped that this evaluation benchmark will assist researchers in building more 
practical and effective facial video anti-forgery detection models, thereby 
advancing the technology in the field of anti-forgery detection. Additionally, this 
paper addresses the challenges posed by Chinese face video anti- forgery detection 
benchmark datasets and anti-forgery detection technology. It also proposes 
potential future research directions, offering valuable insights to advance the 
development of face video anti-forgery detection technology. 

Keywords : Deep Learning Deepfakes Fake Video Multimodal Anti-Forgery 
Detection 

为 了 应 对 数字 经 济 中 数字 智能 面临 的 挑战 ,生成 式 人 工 智 能 (AIGC)D 应 运 而 
aes SEIT PA Oe c Zo A AIGC 具有 巨大 潜力 来 支持 不 同 
应 用 .例如 ,依据 当前 维度 的 属性 信息 ,AIGC 可 以 将 数字 内 容 从 一 个 维度 映射 到 另 
一 个 维度 ， SAAS EET ACS 能 增强 和 智能 转译 ,从 而 极 大 地 推动 图 像 超 

分 、 语 音 转 字幕 以 及 文字 转 语 音 等 自动 化 与 执行 效率 .通过 对 当前 内 容 的 理解 和 
属性 控制 ,AIGC 直接 促进 视频 场景 剪辑 、 虚 拟 试 衣 以 及 人 声 
分 离 等 视频 内 容 理解 技术 的 产业 应 用 .在 智能 数字 内 容 生成 方面 ,AIGC 依托 其 从 
海量 数据 中 学 习 抽 象 概念 、 通 过 概念 的 组 合生 成 全 新 内 容 的 能 力 ,使 得 图 像 生成 
(AI 绘画 ) 和 视频 生成 的 效果 更 加 逼真 .然而 “眼见 为 实 ” 的 理念 往往 深 植 人 心 ,在 
AIGC 发 展 带动 的 视频 内 容 生 成 变革 情况 下 了 解 真 相 和 信任 这 些 信 息 变 得 越 来 越 
困难 .AIGC 的 发 展 无 疑 会 造成 人 脸 图 片 生成 和 人 脸 视 频 生成 领域 的 信息 真实 性 
验证 困难 争 , 对 当今 社会 造成 安全 威胁 甚至 是 挑战 .例如 ,在 2022 年 的 俄 乌 冲 突 爆 
发 阶段 ,网 络 上 流传 的 乌克兰 总 统 泽 连 斯 基 要 求 军队 投降 的 视频 片段 以 及 俄罗斯 
总 统 普京 宣布 战争 结束 的 深度 伪造 视频 引发 了 双方 国家 甚至 全 球 社会 的 恐慌 .在 
2023 年 4 月 ,美国 共和 党 发 布 了 30 秘 的 深度 伪造 竞选 广告 ,展示 了 一 旦 拜 登 赢得 
2024 年 竞选 可 能 带 来 的 灾难 性 场景 .这 类 对 政治 人 物 的 深度 伪造 视频 通过 形象 抹 
黑 和 内 容 算 改 ,可 能 影响 国家 政治 制度 甚至 引发 国际 战争 危机 .此 外 ,社交 映 份 的 
伪造 导致 各 类 诈骗 现象 不 断 增多 . BEANE SD TARE E BAR TEE E EI 
人 形象 ,在 聊天 室 中 通过 面孔 和 声音 模拟 与 “同龄 ”儿童 进行 数字 对 话 ,以 获取 未 
成 年 人 的 信任 ,从 而 对 他 们 的 安全 构成 威胁 . 

为 了 应 对 人 脸 视频 深度 伪造 技术 的 滥用 和 潜在 危害 ,工业 界 和 学 术 界 的 大 量 
研究 人 员 提 出 了 视频 防伪 检测 技术 1. 与 此 同时 ,人 脸 视 频 防伪 检测 数据 集 作 为 
人 脸 视 频 防伪 检测 检测 技术 发 展 的 基石 ,能 够 有 效 推动 人 脸 视 频 防伪 检测 技术 高 
质量 发 展 .为 了 构建 一 个 高 效 且 可 用 的 人 脸 视频 防伪 检测 方法 ,需要 大 量 多 样 化 且 
高 逼真 的 人 脸 视 频 防伪 检测 数据 样本 .因此 ,最 近 研 究 人 员 利 用 深度 伪造 方法 创建 
了 许多 不 同 的 人 脸 视 频 防伪 检测 数据 集中 0 由 在 帮助 研究 人 员 训 练 和 评估 他 们 
的 视频 防伪 方法 .然而 ,目前 仍然 缺乏 用 于 训练 多 模 态 防伪 方法 的 多 模 态 深度 伪造 
基准 .现存 的 人 脸 视频 防伪 检测 数据 集 大 多 数 忽视 了 音频 深度 伪造 和 多 模 态 深度 
伪造 .虽然 存在 一 些 同时 关注 音频 和 视觉 信息 的 多 模 态 人 脸 视频 防伪 检测 数据 集 ， 
但 在 深度 伪造 的 音频 和 视频 方面 通常 存在 数量 和 方法 上 的 不 平衡 , 且 拍 摄 场景 单 
一 ,这 限制 了 视频 防伪 模型 学 习 更 一 般 性 的 多 模 态 信息 特征 ,进一步 限制 了 视频 防 


伪 方 法 的 发 展 .此 外 , 现 有 的 人 脸 视频 防伪 检测 数据 集 主要 集中 在 欧美 人 脸 视频 
上 ,缺乏 亚洲 人 脸 视频 数据 样本 ,面向 人 脸 视 频 防 伪 检 测 的 大 规模 中 文 数 据 仍 是 空 
白 . 

为 了 弥补 视频 防伪 数据 集中 多 模 态 数据 的 缺乏 和 亚洲 人 脸 视频 数据 样本 不 
足 ,尤其 是 中 文 数据 的 空白 ,本 文 构建 全 球 首 个 面向 人 脸 视 频 防伪 检测 的 大 规模 中 
文 数据 集 一 CHN-DF.CHN-DF 是 最 大 的 公开 视频 防伪 数据 集 ,样本 量 达到 426087. 
基于 当前 多 种 高 逼真 生成 AIGC 技术 ,CHN-DF 数据 集 覆 盖 了 多 样 的 取材 场景 并 
拥有 庞大 的 视频 数据 样本 量 .数据 源 自 CN-CV SU! 5; CMLRC2 ,包含 国 内 电视 新 闻 
和 网 络 演讲 节目 中 收集 到 的 2540 名 说 话 人 发 言 的 视频 片段 ,视频 拍摄 场景 超过 
2000 个 ,伪造 视频 则 从 音频 与 视觉 信息 两 方面 采用 Mockingbird??!, FOMMI, 
FSGANP?!, Motion-cosP?., Simswap""!, Wav2LipU?! LJ € coqui-TTSP?l ip 7 种 
主流 深度 伪造 方法 ,以 确保 其 内 容 足 够 复杂 和 多 样 化 .为 了 搭建 面向 人 脸 视频 防伪 
检测 的 评测 基准 ,选用 多 模 态 视频 防伪 技术 领域 中 主流 的 11 种 基线 方法 并 对 
CHN-DF 数据 集 进行 综合 实验 ,通过 与 人 脸 视频 防伪 检测 领域 已 有 数据 集 检测 结 
果 的 对 比 ,分 析 了 现 有 防伪 检测 技术 优 务 与 不 足 ,验证 CHN-DF 数据 集 的 多 样 性 与 
实用 性 . 

本 文 第 1 节 介 绍 视频 深度 防伪 数据 集 相 关 工 作 , 第 2 节 介 绍 数据 集 CHN-DF, 
包括 数据 收集 和 生成 .第 3 节 介 绍 本 文 构建 数据 集 的 基准 实验 ,通过 实验 结果 验证 
了 本 文 构建 数据 集 的 有 效 性 ,第 4 节 介 绍 当 下 人 脸 视频 防伪 检测 数据 集 与 防伪 检 
测 技术 面临 挑战 及 发 展 方向 ,最 后 总 结 全 文 . 

1. 视 频 深 度 防伪 数据 集 相关 工作 

AIGC 发 展 带 来 的 视频 内 容 生 成 技术 变革 ,增加 了 检测 人 脸 伪 造 视频 的 紧迫 
性 , 近 些 年 来 学 术 界 和 工业 界 的 许多 研究 人 员 开 源 了 部 分 数据 集 以 促进 该 领域 的 
研究 .本 节 将 对 人 脸 视频 防伪 检测 数据 集 的 现状 进行 梳理 ( 见 表 1). 

d 1 视频 深度 防伪 数据 集 汇总 


数据 集 类 型 ” 发布 年 真实 伪造 视频 说 话 o Dus 真实 数据 
份 视频 。 视频 AR 人 方法 来 源 
数量 Am 总 数 “数量 
UADFV 视频 ^— 2018 49 49 98 49 1 YouTube 
DeepfakeTIMIT ”视频 2018 640 320 960 32 2 VidTIMIT 
FF++ 视频 2019 1000 4000 5000 未知 4 YouTube 
Celeb-DF 视频 2019 590 5639 6229 59 1 YouTube 
DeeperForensics 视频 2020 50000 10000 60000 100 1 演员 拍摄 
WildDeepfake 视频 。 2020 3805 3509 7314 XA RA 网 络 收集 
DFDC 视频 + = 2020 23654 104500 128154 960 8 演员 拍摄 
音频 
KoDF 视频 + 2021 62166 175776 237942 403 6 演员 拍摄 
音频 
ForgeryNet 视频 2021 99630 121617 221247 5400+ 8  VoxCeleb2 “# 
FakeAVCeleb 视频 + 2022 500 19500 20000 500 4 VoxCeleb2 
音频 
CHN-DF 视频 + 2023 213187 212900 426087 2540 7 CN-CVS/CMLR 


现 有 的 人 脸 视 频 防伪 检测 数据 集 主 要 分 为 两 类 :第 一 类 数据 集 借 助 视觉 层面 
的 单 模 态 伪造 方法 ,通过 修改 或 交换 人 类 的 面部 特征 信息 达到 人 脸 伪造 的 效果 ; 男 
一 类 数据 集 伪造 方法 结合 视觉 与 听觉 层面 的 伪造 手段 ,对 于 一 段 真 实 视频 ,通过 视 


觉 或 听觉 特征 信息 的 多 模 态 修改 实现 视频 信息 的 复杂 伪造 ,此 类 伪造 方法 伪造 角 
度 与 方式 多 样 ,更 贴 合 人 脸 视 频 恶 意 伪 造 的 现实 情况 ,是 视频 深度 防伪 数据 集 的 发 
展 趋势 .但 要 求 伪 造 手 段 多 样 且 过 程 复 杂 , 因 此 此 类 数据 集 数 据 样 本 匮乏 . 

1.1 基 于 视觉 的 单 模 态 人 脸 视频 防伪 检测 数据 集 


UADFV!""!UADFV 为 纽约 州立 大 学 研究 人 员 在 2018 年 发 布 的 第 一 个 用 
于 人 脸 视 频 防伪 检测 的 数据 集 , 数 据 集 共 有 98 个 视频 ,其 中 49 个 是 从 
YouTube 收集 到 的 真实 视频 ,伪造 视频 则 是 通过 使 用 FakeApp 应 用 程序 9 
进行 伪造 生成 出 49 个 假 视 频 .视频 的 平均 长 度 为 11.14 秒 ,平均 分 辩 率 为 
294 X 500 像素 .作为 早期 人 脸 视 频 防 伪 检 测 数据 集 ,UADFV 在 数量 和 质量 
上 都 有 限制 ,由 单一 的 FakeApp 产生 的 假 视 频 中 人 脸 扭 昌 变 化 及 异常 动作 
很 明显 ,因此 很 容易 检测 到 . 

DeepfakeTIMIT!"!:DeepfakeTIMIT 同样 是 在 2018 年 引入 的 另 一 个 针对 深 
度 伪造 检测 的 人 脸 视 频 防伪 检测 数据 集 ,该 数据 集 的 真实 数据 来 源 于 32 
名 说 话 人 拍摄 的 640 个 视频 ,每 个 说 话 人 视频 集中 包含 10 个 高 分 辨 率 的 
DeepFake-TIMIT-HQ 视频 和 10 个 低 分 辨 率 的 DeepFake-TIMIT-LQ 视频 . 
假 视 频 通过 面部 交换 技术 交换 说 话 人 间 面 部 信息 得 到 .然而 ,同样 由 于 早 
期 视频 伪造 方法 的 局 限 性 ,生成 视频 只 有 4 秒 长 且 合 成 的 视频 往往 是 模糊 
的 . 

FF++3) FPL AY 4 种 伪造 手段 Deepfake!?!! Face2face!*”!,Faceswap'*! fll 
NeuralTextures54, 是 第 一 个 假 视频 伪造 方法 既 包 含 了 基于 深度 学 习 的 深 
度 伪 造 方法 ,同时 也 涵盖 了 基于 计算 机 图 形 学 的 伪造 方法 .数据 集 包 含 来 
自 YouTube 的 1000 个 真实 视频 和 4000 个 基于 计算 机 图 形 学 和 两 种 基于 
深度 学 习 的 方法 合成 的 伪造 视频 .此 外 ,数据 集 划 分 成 两 个 质量 级 别 , 即 未 
压缩 格式 和 H264 压缩 格式 ,可 用 于 评估 深度 伪造 检测 方法 在 压缩 视频 和 
未 压缩 视频 上 的 性 能 .然而 ,FE+ 的 大 小 和 多 样 性 仍然 不 足 , 导 致 难以 对 由 
大 量 参数 组 成 的 高 性 能 神经 结构 进行 最 优 训 练 . 

Celeb-DEF04: 针 对 UADFV、FF++ 和 DeepfakeTIMIT 等 生成 视频 的 质量 不 
佳 和 算 改 痕迹 粗糙 的 问题 ,Celeb-DF 对 视频 伪造 方法 进行 了 改进 ,提供 了 
更 高 质量 的 视频 .数据 集中 的 真实 视频 源 自 YouTube 中 的 59 位 说 话 人 的 
590 个 视频 ,并 使 用 改进 的 deepfake 技术 生成 了 5639 个 虚假 视频 .然而 ,该 
数据 集 仍 存在 伪造 方法 单一 的 问题 ,不 适用 于 现实 世界 中 遇 到 的 挑战 . 
DeeperForensics05: 数 据 集中 的 真实 视频 源 自 100 名 付费 演员 的 录制 ,其 中 
采用 了 FF++ 中 的 视频 作为 面部 交换 伪造 方法 的 1000 个 目标 视频 .通过 将 
每 个 源 身 份 与 10 个 目标 视频 进行 面部 交换 ,合成 了 1000 个 假 视 频 . 此 
外 ,DeeperForensics 并 没有 采用 其 他 的 合成 方法 ,而 是 利用 7 种 扰动 方法 对 
真实 视频 和 伪造 视频 进行 数据 增强 以 增加 多 样 性 .通过 这 种 方式 创建 了 
50000 个 真实 视频 和 10000 个 伪造 视频 .虽然 数据 量 明显 大 于 早期 的 人 脸 
视频 防伪 检测 数据 集 , 并 且 更 具 多 样 性 ,但 是 DeeperForensics 还 没有 像 其 
他 数据 集 一 样 对 当前 人 脸 伪造 技术 广泛 的 评测 ,因此 DeeperForensics 的 学 
WildDeepfakeb9: 面 对 早期 人 脸 视频 防伪 检测 数据 集 存在 缺少 内 容 多 样 性 


和 视频 源 低 质 量 的 问题 ,WildDeepfake 从 互联 网 上 收集 真实 和 深度 伪造 的 
样本 ,包含 了 视频 中 提取 的 面部 动作 序列 ,在 人 工 去 除 没有 对 应 真实 人 上 脸 
的 视频 后 ,真实 视频 数量 为 3805, 伪 造 视频 数量 为 3509. 视 觉 效果 更 贴 合 真 
实生 活 场景 ,但 数据 量 不 足 导 致 在 训练 高 性 能 神经 网 络 结构 时 存在 局 限 . 
ForgeryNet0 目前 为 止 是 基于 视觉 的 人 脸 视 频 防 伪 检 测 数 据 集中 最 大 规 
模 的 数据 集 ,提出 了 包括 时 序 伪 造 定位 、 空 间 伪 造 定位 等 多 项 任 
务 ,ForgeryNet 采用 8 种 深度 伪造 方法 ,生成 121617 个 伪造 视频 .视频 总 量 
达到 包含 221247, 并 且 视 频带 有 丰富 的 数据 标注 . 


1.2 基 于 视觉 与 听觉 的 多 模 态 人 脸 视 频 防伪 检测 数据 集 


DFDC"®!:DFDC 是 第 一 个 在 视频 中 包含 伪造 音频 的 数据 集 ,起 初 作为 
Facebook 发 布 的 同名 DFDC 竞赛 的 数据 集 ,包含 5250 个 视频 .之 后 经 过 数 
据 补 充 真实 视频 达到 23654 个 ,伪造 视频 数据 量 达 到 104500. 为 了 保证 数 
据 集 的 多 样 性 ,真实 视频 源 取 自 不 同 的 环境 设置 ,伪造 视频 则 由 八 种 不 同 
的 方法 生成 .听觉 模 态 上 仅 进 行 音频 交换 ,并 没有 使 用 音频 伪造 方法 .标签 
仅 包 仿真 假 两 个 类 别 , 没 有 区 别 伪造 视频 中 视觉 伪造 与 听觉 伪造 . 

KoDF “KoDF 是 目前 在 基于 视觉 与 听觉 的 多 模 态 人 脸 视 频 防伪 检测 数 
据 集 领 域 中 最 大 的 公开 数据 集 , 包 含 采用 6 种 伪造 方法 伪造 的 175776 个 假 
视频 和 62166 个 真实 视频 .视频 中 403 说 话 人 大 多 是 韩国 人 ,是 为 了 平衡 在 
ee s c V 
觉 与 听觉 信息 时 仅 进行 音频 与 人 脸 展 部 动作 的 同步 伪造 ,并 没有 使 用 声 
克隆 、 声 音 转换 等 深度 语音 伪造 方法 . 
FakeAVCelebt*1: 首 个 同时 包含 伪造 视频 和 伪造 音频 的 人 脸 视 频 防伪 检测 
数据 集 ,是 多 模 态 人 脸 视 频 防伪 检测 常用 的 评测 数据 集 ,从 VoxCeleb2 数据 
集 选 择 了 500 个 真实 视频 ,利用 了 era DeepFaceLab?!fll FSGAN f/j 
造 面 部 信息 ,利用 SV2TTS69 伪 造 音 频 信 息 ,使 用 Wav2Lip 完成 音频 与 人 脸 
层 部 动作 的 伪造 ,生成 了 19500 个 伪造 视频 


2.CHN-DF 人 脸 视频 防伪 检测 检测 数据 集 


ND OA DA e eee 
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CHN-DF 数据 集 的 真实 视频 获取 和 伪造 视频 生成 ,然后 详细 描述 CHN-DE 数据 集 
的 基本 属性 信息 . 


2.1 真 实 视 频 


为 了 保障 CHN-DF 数据 集 的 场景 多 样 : 


—= 


生 与 内 容 复杂 性 ,CHN-DEF 真实 视频 源 


于 目前 最 大 的 公开 中 文 视 听 多 模 态 数据 集 CN-CVS DA n xg vs A s SE 
CMLR.CN-CVS 总 共有 超过 2500 名 说 话 人 ,数据 总 条 数 超过 二 十 万 ,总 时 长 超过 


300 小 时 ,CHN-DF 选取 其 中 Speech 部 分 的 2529 名 说 话 人 视频 ,选取 的 视频 总 量 


接近 20 万 ;CMLR 数据 集 包 含 了 2009 年 6 月 至 2018 年 6 月 的 新 闻 联 播 视频 , 数 
据 集 包含 由 11 位 主持 人 所 表述 的 共 102076 个 视频 ,CHN-DF 数据 集 对 CMLR 数 
据 集 进行 了 筛选 ,达到 保持 说 话 人 之 间 视 频数 据 量 平 衡 的 目的 ,选取 的 视频 总 \ 量 接 


近 2 万 . 


基于 此 ,CHN-DF 真实 视频 数据 量 达到 213187, 超 过 目前 公开 的 人 脸 视 频 防 伪 


检测 数据 集 的 真实 视频 数量 ,说 话 人 总 数 也 达到 2540. 此 外 ,CMLR 使 用 基于 HOG 


的 人 脸 检 测 方法 ,再 利用 开源 平台 进行 人 脸 识别 和 对 齐 ;CN-CVS 使 用 dlib THE 
对 每 个 视频 进行 面部 检测 ,删除 没有 人 脸 或 多 个 人 脸 的 视频 .因此 CHN-DF 视频 区 
域 已 固定 在 人 脸 部 分 . 

由 于 CHN-DF 数据 集中 真实 视频 基于 说 话 人 身份 进行 视频 内 容 划 分 ,数据 集 
中 训练 集 、 验 证 集 和 测试 集 的 说 话 人 不 存在 重 登 部 分 .因此 ,CHN-DE 数据 集 具 有 
高 度 可 扩展 性 .可 以 很 容易 地 将 新 说 话 人 的 真实 视频 与 伪造 视频 加 入 数据 集 , 以 增 
加 真实 和 深度 假 视频 的 数量 ,并 确保 训练 集 、 验 证 集 和 测试 集 相互 独立 . 
2.2 伪 造 视频 

CHN-DF 的 伪造 视频 从 音频 与 视觉 信息 两 方面 采用 Mockingbird、coqui-TTS、 
Wav2Lip、SimSwap、FOMM、Motion-cos 以 及 FSGAN 总 计 7 种 深度 伪造 方法 ， 
覆盖 主流 的 深度 伪造 方式 .其 中 ,Simswap 和 FSGAN 是 基于 面部 交换 的 伪造 方 
法 ;FOMM 和 Motion-cos 是 基于 面部 重 现 的 伪造 方法 ;Mockingbird 和 coqui-TTS 
是 基于 语音 克隆 的 伪造 方法 ;Wav2Lip 是 基于 层 语 同步 的 伪造 方法 .图 1 显示 了 所 
选 视觉 伪造 方法 生成 的 示例 ,其 中 从 上 而 下 的 每 一 行 视频 帧 为 依次 使 用 Wav2lip、 
SimSwap、FOMM、Motion-cos 和 FSGAN 创建 的 结果 .不 同方 法 伪造 视频 数量 分 
布 情况 如 图 2 所 示 , 由 于 生成 的 伪造 视频 在 人 工 检 查 过 程 中 根据 伪造 效果 进行 了 
筛选 ,因此 每 种 伪造 方法 的 视频 数量 并 不 相等 ,但 CHN-DF 仍 保持 了 伪造 方法 数量 
之 间 的 相对 平衡 .此 外 ,others 类 别 是 指 将 源 视 频 的 音频 蔡 换 为 同一 子 集 ( 训 练 集 、 
验证 集 或 测试 集 ) 下 其 他 视频 的 音频 后 生成 的 伪造 视频 . 


Wav2lip 


SimS wap 


FOMM 


Motion-cos 


FSGAN 


图 1 CHN-DF 伪造 视频 生成 示例 
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图 2 CHN-DF 中 不 同方 法 伪造 视频 数量 分 布 

€ Mockingbird:Mockingbird25 用 于 中 文 实时 语音 克隆 ,通过 不 同 讲话 人 音频 
信息 合成 虚假 音频 .在 SV2TTS 的 基础 上 ,Mockingbird 引入 中 文 训练 数据 
集 (aidatatang_200zh、magicdata、aishell3) 用 于 训练 语音 合成 系统 ,对 训练 
数据 集中 的 语音 进行 处 理 , 提 取 讲 话 人 的 声音 提取 音色 问 量 (Speaker 
Encode), 然 后 根据 讲话 人 声音 和 音色 向 量 加 上 合成 器 (Synthesizer) 和 声 码 
器 (Vocoder) 完 成 中 文 语音 克隆 . 

€ coqui-TTS:coqui-TTSP?! 是 一 个 低 资 源 零 样本 文本 转 语 音 模 型 
(Text-to-Speech,TTS), 上 其 有 合成 包括 汉语 在 内 的 多 种 语言 能 力 .提供 了 包括 
TacotronG7 Tacotron268.Glow-TTS62 在 内 的 多 种 文本 语音 规范 模型 ,以 及 
MelGAN[01,Multiband-MelGANI1,GAN-TTSI 名 等 声 码 器 模型 .这 些 模型 
的 高 效 性 和 多 功能 性 使 得 Coqui-TTS 能 够 处 理 复杂 的 文本 到 语音 转换 任 
务 ,同时 保持 高 质量 的 语音 输出 . 

@ = Wav2Lip:Wav2Lip'*! 7 — SE F GAN 的 展 形 动作 迁移 算法 ,Wav2Lip 不 仅 
可 以 基于 图 片 与 目标 语音 匹配 的 层 形 同步 视频 ,还 可 以 直接 将 动态 的 视频 
进行 层 形 转换 ,实现 唇 形 动 作 与 输入 语音 匹配 的 视频 , 即 “ 对 口 型 ”. 在 原理 
上 ,Wav2Lip 利用 预先 训练 的 唇 语 同步 检测 器 帮助 模型 根据 音频 学 习 嘴 唇 
动作 ,实现 生成 的 视频 人 物 口 型 与 输入 语 首 同步 .为 了 捕捉 语音 的 时 间 上 
下 文 ,该 模型 使 用 五 个 连续 的 人 脸 帧 和 对 应 的 语音 内 容 作为 输入 . 

© SimSwap:SimSwapF 模 型 采用 身份 注入 模块 GIMD), 该 模块 可 以 在 特征 级 
别 上 将 源 图 片 中 人 脸 的 身份 信息 转移 到 目标 视频 的 人 脸 上 ,此 外 使 用 弱 特 
征 匹 配 损 失 , 该 损失 以 隐 式 方式 帮助 模型 保留 面部 属性 .这 些 操作 使 得 模 
型 可 以 在 实现 通用 且 高 保 真 度 的 面部 交换 . 

€ FOMM:FOMM9 是 作者 通过 自 监督 公式 来 解 耦 外 观 和 运动 信息 的 自 监 
督 模型 ,模型 由 运动 估计 模块 和 图 像 生成 模块 两 个 主要 模块 组 成 .根据 目 
标 视频 中 相似 对 象 的 运动 ,模型 通过 观察 从 同一 视频 中 提取 的 帧 对 ,将 运 
动 编码 为 特定 于 运动 的 关键 点 位 移 和 局 部 仿 射 变换 的 组 合 ,进而 组 合 出 学 
习 运 动 的 特征 图 来 重建 训练 视频 ,应 用 时 模型 将 源 图 像 和 目标 视频 的 每 一 
帧 配对 ,并 对 源 对 象 进行 图 像 动 画 制 作 , 从 而 实现 生成 关于 源 图 像 人 脸 的 
伪造 视频 . 

€ Motion-cos:Motion-cos59 是 一 种 用 于 部 件 分 割 的 自 监 督 深度 学 习 方 法 ,从 
人 脸 源 图 像 中 提取 关键 点 信息 ,依据 各 个 子 部 件 的 特征 图 对 目标 视频 进行 
逐 帧 伪造 ,实现 面部 交换 的 区 域 化 操作 .Motion-cos 提供 对 人 脸 区 域 的 五 
段 、 十 段 以 及 十 五 段 分 割 预 训练 模型 ,CHN-DF 采用 了 十 五 段 分 割 预 训练 
模型 对 人 脸 区 域 进行 细 粒 度 的 面部 交换 . 


€ FSGAN:FSGAN E — fidi Tos Hit EMG pd 28 B] H8 S o 703 R8 s EL b LAURI 
源 视 频 能 够 实现 面部 交换 和 面部 重 现 .模型 首先 根据 目标 人 脸 的 姿态 和 表 
情 重新 绘制 源 视 频 人 脸 并 分 割 成 两 个 面部 区 域 ,同时 填补 了 重新 绘制 的 脸 
部 的 缺失 部 分 并 将 完整 的 脸 部 与 目标 进行 混合 ,从 而 创造 出 最 终 的 结果 . 
在 面部 重 现 的 过 程 中 ,模型 通过 Delaunay ZAHA HER AJIS Esc UG 
配 的 多 个 源 视 频 人 脸 帧 并 使 用 重心 坐标 对 再 现 结果 进行 加 权 平 均 , 这 个 过 
程 使 得 模型 不 需要 为 每 个 新 源 视频 进行 大 量 的 调整 .CHN-DF 采用 了 
FSGAN 中 的 面部 交换 技术 . 
2.3 数 据 集 描述 
2.3.1 数据 集 类 别 描述 
使 用 上 述 深度 伪造 方法 ,CHN-DF 数据 集 基 于 视觉 与 听觉 分 为 4 个 类 别 : 真 实 
视觉 -真实 听觉 (VRAR)、 真 实 视 觉 -伪造 听觉 VRAF)、 伪 造 视觉 -真实 昕 觉 (VFAR) 以 
及 伪造 视觉 -伪造 听觉 (VFAD). 
K 2 CHN-DF 数据 集中 视觉 与 听觉 伪造 组 合 类 型 与 对 方 伪造 方法 


CHN-DF 真实 听觉 来 源 (AR) 伪造 听觉 生成 (An 
真实 视觉 来 源 数据 源 Mockingbird,coqui-TTS 
(VR) 
伪造 视觉 生成 SimSwap,FOMM,Motion-cos,FSGAN Wav2Lip, Vex Ar 
(Vr) 


(真实 视觉 -真实 听觉 (VRAR):VRAR 数据 源 自 CN-CVS 与 CMLR,M CN-CVS 
中 选择 Speech 模块 的 2529 名 说 话 人 视频 ,CN-CVS/Speech 具有 大 量 的 说 话 人 和 
更 加 复杂 多 变 的 环境 , 贴 合 现实 生活 中 对 话 场景 和 内 容 的 复杂 性 ;从 CMLR 数据 
集 筛 选 近 2 万 个 11 位 主持 人 的 主持 视频 .按照 身份 对 出 镜 人 编号 ,VRAR 数据 总 量 
达到 213187 个 . 

(2) 真 实 视觉 -伪造 听觉 (VRAD:VRAE 视觉 上 保持 源 视频 的 真实 性 ,在 听觉 上 进 
行 音频 伪造 .如 表 2 所 示 , 在 CHN-DF 数据 集中 采用 低 资 源 零 样本 TTS 模型 
coqui-TTS 与 基于 迁移 学 习 的 中 文 实时 语音 殉 隆 模型 Mockingbird 生成 元 隆 的 伪 
造 音 频 . 具 体 地 ,将 源 视 频 说 话 人 的 文本 语句 和 其 他 说 话 人 的 音频 作为 模型 输入 ， 
生成 基于 他 人 音频 克隆 的 伪造 音频 .将 伪造 音频 与 源 视频 合并 得 到 VrAF 类 别 视 
频 ,这 种 类 别 的 深度 伪造 可 能 的 现实 场景 是 一 个 人 通过 模仿 男 一 个 说 话 人 的 说 话 
信息 来 进行 身份 欺诈 .因此 可 以 用 来 训练 防御 语音 欺骗 攻击 .VrArF 数据 总 量 达到 
63070 ^. 

(3) 伪 造 视觉 -真实 听觉 (VFAR):VFAR 视觉 上 进行 人 脸 伪造 ,视觉 上 保持 源 音 频 
的 真实 性 .如 表 2 所 示 , 人 脸 伪 造 通常 采用 面部 交换 和 面部 重 现 方法 ,在 面部 交换 方 
法 上 采用 Simswap 和 FSGAN 模型 ,将 源 视 频 中 的 人 脸 与 其 他 说 话 人 的 人 脸 进行 
面部 交换 .在 面部 重 现 方法 上 采用 FOMM 和 Motion-cos 模型 ,将 源 视 频 中 的 人 脸 
帧 与 其 他 说 话 人 的 视频 作为 输入 ,实现 其 他 说 话 人 视频 中 的 面部 动作 应 用 到 源 视 
频 人 脸 上 的 效果 .将 伪造 视频 与 源 音 频 合 并 得 到 VrAr 类 别 视频 .在 现实 场景 中 存 
在 攻击 者 通过 修改 他 人 的 面部 动作 或 交换 人 脸 来 塑造 一 个 并 不 存在 的 视频 画面 ， 
因此 使 用 这 种 类 别 的 这 度 伪造 数据 可 以 用 来 训练 防御 身份 欺诈 技术 .VFAR 数 据 总 
量 达到 88888 个 . 

(4 伪造 视觉 -伪造 听觉 (VFAP:VFAF 既 包 含 人 脸 伪 造 又 包含 音频 伪造 ,结合 
VRAF 与 YFAR 伪 造 方法 的 同时 又 使 用 了 Wav2lip( 见 表 2). 具 体 地 ,VrAr 包 含 三 种 盆 


造 方式 ,第 一 种 伪造 方式 为 将 时 长 相近 的 伪造 音 视 频 进 行 音 视频 合并 ;第 二 种 伪造 
方式 为 将 时 长 相近 的 伪造 音 视 频 合并 之 后 采用 Wav2lip 进行 情形 动作 同步 , 即 “对 
口 型 ”; 第 三 种 伪造 方式 为 对 VRAF 中 视频 数据 采用 Wav2lip 改变 唇 形 动作 .VFAr 
类 别 视频 是 对 Va Ag 与 VrAr 类别 视频 的 整合 , 贴 合 现实 场景 中 视听 觉 同 时 伪造 的 
复杂 场景 .VrAr 数 据 总 量 达到 60942 个 . 

值得 一 提 的 是 ,VRAF、VFAR 以 及 VrAr 中 伪造 视频 过 程 提 到 的 其 他 视频 与 源 
视频 均 在 同一 子 集 (训练 集 、 验 证 集 或 测试 集 ) 下 ,这 保证 了 训练 集 、 验 证 集 和 测试 
集 相 互 独立 . 
2.3.2 数据 集 属 性 描述 

CHN-DF 数据 集 包含 426087 个 人 脸 视 频 ,说 话 人 总 数 达 到 2540 人 .其 中 真实 
视频 213187 个 ,伪造 视频 212900 个 ,CHN-DF 正 负 样本 平衡 . 负 样 本 VRAF、VFAR 
以 及 VeAr 的 数量 分 别 为 63070. 88888 以 及 60942 种 类 别 伪 造 视频 ( 即 VRAF、 
VrAn 以 及 VFAP) 的 数量 近似 . 

根据 说 话 人 身份 ,按照 7:1:2 的 比例 将 CHN-DE 视频 划分 为 训练 集 (1778 位 说 
话 人 的 350679 个 视频 )、 验 证 集 (254 位 说 话 人 的 22685 个 视频 ) 和 测试 集 (508 位 
说 话 人 的 52723 个 视频 ),CHN-DF 视频 时 长 分 布 如 图 3 所 示 , 持 续 时 间 在 
0.36-355.58 秒 , 贴 合 现实 情况 下 视频 时 长 长 短 不 一 的 特点 ,平均 长 度 为 5.12. 秒 . 视 
频 时 长 集中 在 0-20 秒 ,其 中 98.75% 的 片段 小 于 20 秒 ,99.94% 的 片段 小 于 50 秒 . 


20-50 秒 视频 时 长 分 布 
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图 3 CHN-DF 视频 时 长 分 布 


3.CHN-DF 基准 评测 

制作 人 脸 视 频 防伪 检测 数据 集 的 最 终 目 标 是 推动 研发 出 能 够 对 各 种 深度 伪 
造 类 型 与 方式 表现 良好 的 人 脸 视 频 防伪 检测 模型 ,人 脸 视 频 防伪 检测 模型 性 能 好 
坏 是 通过 测评 模型 在 人 脸 视 频 防伪 检测 数据 集 的 多 种 定量 指标 体现 .在 本 节 中 将 


介绍 CHN-DF 基准 评测 的 评估 方法 以 及 评价 指标 ;基于 代码 的 可 复 现 性 ,采用 8 种 
多 模 态 人 脸 视 频 防 伪 检 测 领 域 先 进 方法 进行 的 全 面 基 准 性 能 评估 ,以 此 来 展示 
CHN-DF 数据 集 的 复杂 性 和 贴近 真实 场景 水 平 , 同 时 与 最 近 发 布 的 多 模 态 
FakeAVCeleb 数据 集 进行 比较 .选择 此 数据 集 最 重要 的 原因 是 FakeAVCeleb 是 目 
前 已 知 的 唯一 包含 详细 音 视 频 伪 造 标注 的 多 模 态 人 脸 视频 防伪 检测 数据 集 . 此 外 ， 
该 数据 集 还 采用 了 丰富 的 造假 方法 ,在 多 模 态 人 脸 视频 防伪 检测 领域 是 被 广泛 接 
受 的 优秀 评测 基准 此 50. 
3.1 评 估 方 法 
在 CHN-DF 基准 评测 的 评估 方法 选择 中 ,按照 数据 集 包 含 视觉 与 听觉 两 个 模 
态 信息 的 特点 ,选择 基于 单 模 态 模型 检测 结果 集成 的 防伪 检测 方法 以 及 多 模 态 人 
脸 视频 防伪 检测 模型 进行 基准 评测 . 
3.1.1 集成 方法 
(Meso-4:Afchar52 等 人 提出 的 四 层 卷 积 网 络 ,是 一 种 基于 图 像 噪声 中 段 信 
恩 的 人 脸 伪造 检测 算法 .这 种 方法 有 效 解 决 了 图 像 噪声 减弱 和 高 层 语义 特征 难以 
区 分 伪造 视频 帧 的 问题 .其 浅 层 结构 增强 了 对 中 等 和 大 尺度 特征 的 敏感 度 ,提升 了 


i 


BR. 


(2)MesolInception-4: F] FÉ H Afchar 5 P2! f Hy. i 78 2 4 AY se ROR A F 
InceptionNetb3l, 它 通过 用 InceptionNet 的 模块 蔡 换 第 一 层 卷 积 层 来 改进 Meso-4, 
能 够 更 有 效 地 捕捉 不 同 尺度 上 的 特征 .但 也 没 能 解决 浅 层 网 络 结构 在 捕捉 深层 、 
细微 特征 方面 的 限制 . 

(3)Xception: 由 Chollet54 提 出 的 一 种 完全 基于 深度 可 分 离 卷 积 层 的 卷 积 神经 
网 络 体系 结构 ,对 解 夸 通道 相关 性 和 空间 相关 性 进行 简化 推导 出 深度 可 分 离 卷 积 ， 
能 够 高 效 地 提取 图 像 和 视频 帧 中 的 复杂 特征 .其 复杂 的 网 络 结构 带 来 高 效 地 特征 
提取 能 力 的 同时 也 可 能 导致 训练 和 调整 Xception 模型 变 得 更 加 困难 . 
3.1.2 多 模 态 方法 

(Multimodal-2:Multimodal-255 是 一 款 开 源 的 多 模 态 模型 , 旨 在 预测 电影 类 
型 ,输入 数据 包括 电影 海报 和 类 型 .该 模型 由 三 部 分 组 成 :一 部 分 是 处 理 电 影 海 报 
的 卷 积 神经 网 络 (CNN) 块 ,负责 视觉 模式 ; 另 一 部 分 是 处 理 电影 类 型 的 长 短期 记忆 
(LSTM) 块 ,负责 文本 模式 ;最 后 是 一 个 前 馈 网 络 ,负责 分 类 , 它 综合 了 前 两 个 模块 的 
输出 .在 伪造 视频 检测 中 ,模型 利用 CNN 块 分 析 视 频 帧 的 细微 差异 和 LSTM 块 处 
理 音 频 时 序 信息 ,有 效 捕捉 伪造 视频 中 的 不 一 致 性 . 

(2)JCDCN:CDCN5sI 基 于 中 心 差分 卷 积 网 络 ,用 于 解决 人 脸 反 欺骗 的 任务 .该 
模型 采用 三 层 融 合 特征 ( 低 、 中 、 高 ) 来 预测 灰 度 面部 深度 .与 传统 的 卷 积 神经 网 络 
相 比 ,CDCN 通过 其 中 心 差分 卷 积 网 络 能 够 有 效 地 提取 皮肤 纹理 、 表 情 细节 等 细 
微 的 局 部 特征 ,有 助 于 捕获 伪造 技术 产生 的 微小 瑕 疲 . 

(G)MDS: 音 画 同 步 是 伪造 视频 难以 伪造 成 功 的 ,因为 被 伪造 的 视频 帧 往往 会 
存在 失去 唇 型 或 不 自然 的 面部 和 嘴唇 运动 情况 .MDS571 比 较 伪 造 视频 的 视觉 和 听 
觉 内 容 ,通过 量化 模 态 之 间 的 不 协调 性 进行 多 模 态 伪造 视频 检测 . 

(4)VFD:VFD68 关 注 人 的 生物 特征 (声音 和 面部 ) 之 间 的 匹配 程度 ,利用 了 人 类 
生物 特征 的 内 在 相关 性 进行 人 脸 防伪 检测 ,学 习 面 部 和 音频 本 质 特征 , 拉 近 匹配 的 
音 视频 ,分 离 不 匹配 的 音 视频 . 

(3)AvoiD-DF:AVoiD-DF69 是 一 种 基于 视听 联合 学 习 的 人 脸 视频 防伪 检测 方 


法 ,用 于 多 模 态 人 脸 视 频 伪 造 检 测 . 它 由 三 个 关键 部 分 组 成 ,包括 时 空 编码 器 TSE, 
多 模 态 联合 解码 MMD 和 路 模 态 分 类 器 Cross-Modal Classifier, 旨 在 通过 深度 伪造 
在 时 空 层 次 上 的 视听 不 一 致 性 进行 伪造 检测 . 
3.2 评 估 指 标 
为 了 评估 人 脸 视 频 防 伪 检 测 模型 在 数据 集 上 的 性 能 优 劣 ,本 文采 用 准确 度 
(Accuracy). mE (Precision) 4 EX (Recall) fll F1 分数 (Fl-score) 四 项 指标 进行 
性 能 优 劣 的 量化 客观 评估 ,不 仅 考 虑 到 四 项 评估 指标 在 分 类 领域 使 用 的 广泛 性 ,而 
且 在 人 脸 视频 防伪 检测 这 一 特定 领域 中 ,这 些 指 标的 组 合 利 于 全 面 评 估 模 型 性 
能 、 增 强 防 伪 问 题 场景 的 关注 、 处 理 类 别 不 平衡 、 反 映 数据 集 质量 . 
(1) 全 面 评估 模型 性 能 :Accuracy 衡量 模型 正确 预测 的 总 体 比 例 , 对 于 整体 性 
能 提供 全 面 的 视角 ,适用 于 平衡 的 数据 集 .Fl-score 则 将 精确 度 和 召回 率 结合 ,可 以 
在 正 负 样本 之 间 取 得 平衡 ,在 数据 集 存 在 类 别 不 平 情况 下 Fl-score 是 一 个 综合 的 
度量 . 
(2) 增 强 防 伪 问 题 场景 的 关注 :在 人 脸 视 频 防伪 检测 这 类 安全 防护 场景 中 ,更 
关心 的 是 模型 对 真实 正 例 的 捕获 程度 , 即 模型 的 结果 有 多 少 是 真正 例 ,Precision 与 
Recall 指标 可 以 直观 的 反应 人 脸 视 频 防伪 检测 模型 结果 在 真正 例 结果 上 的 优 务 
情况 . 
(3) 处 理 类 别 不 平衡 :在 人 脸 视 频 防伪 检测 模型 中 ,人 脸 视 频 防伪 检测 数据 集 
存在 类 别 不 平衡 的 情况 ,Fl-score 适用 于 对 模型 性 能 评估 时 数据 集 类 别 不 平衡 的 
情况 ,可 以 更 好 地 反映 模型 对 正 例 的 分 类 性 能 . 
(4) 反 映 数据 集 质量 :凭借 能 够 衡量 模型 正确 分 类 比例 的 属性 ,Accuracy 对 于 
正 负 样 本 平衡 的 数据 集 , 可 以 作为 对 整体 数据 集 质 量 的 一 个 反映 .在 类 别 不 平衡 的 
情况 下 ,Fl-score 可 以 更 敏感 地 反映 模型 对 少数 类 别 的 处 理 能 力 , 从 而 更 好 地 评估 
数据 集 的 质量 . 
3.3 基 准 实验 与 结果 分 析 
3.3.1 数据 集 预 处 理 
为 了 训练 基准 人 脸 视 频 防伪 检测 模型 ,分 别 按照 视觉 与 听觉 两 个 模 态 对 数据 
集 进行 预 处 理 .对 于 视觉 模 态 ,由 于 CHN-DF 的 数据 源 CMLR 和 CN-CVS 视频 区 
域 已 固定 在 人 脸 部 分 ,因此 无 需 进 行 视 频 的 人 脸 检 测 与 定位 操作 ,从 每 个 视频 中 提 


视觉 特征 .对 于 听觉 模 态 ,首先 按照 采样 率 为 16kHz 从 视频 中 提取 音频 并 以 WAV 
格式 存储 .接着 使 用 10ms 窗口 位 移 单位 的 25ms 海宁 (Hanm) 窗 口 计 算 梅 尔 倒 谱系 
数 (MFCC) 特 征 .因此 获得 了 每 个 音频 帧 包含 80 A MFCC 特征 的 二 维 阵 列 (D=80)， 
将 所 得 到 的 MFCC 特征 存储 为 一 个 三 通道 图 像 , 然 后 对 MFCC 特征 图 像 的 数量 进 
行 上 采样 来 解决 每 个 视频 只 有 一 个 MECC 特征 图 像 的 问题 .将 这 些 MFCC 图 像 作 
为 输入 传递 给 模型 ,提取 语音 特征 ,以 学 习 真 伪 语 音 之 间 的 区 别 . 
3.3.2 基准 实验 设置 

为 了 CHN-DF 基准 评测 的 公平 性 ,CHN-DF 中 基准 人 脸 视 频 防 伪 检 测 模 型 采 
用 与 评测 FakeAVCeleb 相同 的 模型 参数 .具体 地 ,对 每 种 方法 进行 了 50 次 迭代 的 训 
练 ,使 用 了 EarlyStopping 机 制 , 其 中 的 patience 设置 为 10. 采 用 了 Adam 优化 器 ,学 
习 率 为 105, 实 验 在 一 台 搭 载 Silver 4310 CPU 以 及 Nvidia A40 GPU 的 计算 机 上 运 
行 .其 中 在 集成 方法 中 ,使 用 硬 投 票 (Hard-Voting) 和 软 投 票 (Soft-Voting) 机 制 对 音频 
和 视频 防伪 模型 进行 预测 结果 投票 集成 Ko. 


3.3.3 多 模 态 防伪 方法 对 比 实验 
# 3 CHN-DF 数据 集 上 多 模 态 防伪 方法 对 比 实验 


Methods Year 

Meso-4 2021 
(Soft- Voting) 

Meso-4 2021 


(Hard-Voting) 
Mesolnception-4 2021 
(Soft- Voting) 
Mesolnception-4 2021 
(Hard-Voting) 
Xception 2021 
(Soft- Voting) 
Xception 2021 
(Hard-Voting) 
Multimodal-2 — 2021 


CDCN 2021 
MDS 2020 
VFD 2022 


AVoiD-DF 2023 


Acc. 
0.5685 


0.4996 


0.6455 


0.5811 


0.4360 


0.4360 


0.5020 


0.5000 


0.5784 


0.6439 
0.6457 


CHN-DF 
Precision Recall 
0.4754 0.4729 
0.5119 0.5096 
0.7117 . 0.6541 
0.5823 0.5337 
0.2686 — 0.5163 
0.2686 0.5163 
0.2510 0.5000 
0.5000 0.5000 
0.8571 0.4521 
0.7113 0.6544 
0.7244 0.6785 


Fl-score 
0.4741 


0.4793 


0.6816 


0.5569 


0.3533 


0.3533 


0.3342 


0.4678 


0.5919 


0.6816 
0.7006 


Acc. 
0.4593 


0.4593 


0.7287 


0.7287 


0.4394 


0.4394 


0.6740 


0.5150 


0.6900 


0.8152 
0.8371 


FakeAVCeleb 
Precision Recall 
0.5373 0.5107 
0.5373 0.5107 
0.7445 0.7419 
0.7445 0.7419 
0.2197 0.5000 
0.2197 0.5000 
0.6790 0.6735 
0.5000 0.5004 
0.7800 0.6950 
0.8377 0.7542 
0.8411 0.7702 


Fl-score 
0.3775 


0.3775 


0.7286 


0.7286 


0.3052 


0.3052 


0.6715 


0.3855 


0.6650 


0.7937 
0.8040 


AS Mi FakeAV Celeb 作为 对 比 数据 集 , 原 因 如 1.2 所 述 ,在 基于 视觉 与 听觉 的 
多 模 态 人 脸 视 频 防 伪 检 测 数据 集中 FakeAVCeleb 是 目前 已 知 唯一 公开 可 获得 忒 
同时 拥有 深度 伪造 音频 和 深度 伪造 视频 的 数据 集 .因此 为 了 进行 面向 人 脸 视频 防 


伪 检 测 的 基准 评测 模型 性 能 分 析 和 通过 实验 验 说 
近 真 实 场景 水 平 , 将 所 选 方法 在 CHN-DF 5 FakeAVCeleb 上 进行 基准 评测 省 


RUK 3 所 示 , 两 个 数据 集 之 间 性 能 指标 对 比 的 最 佳 结 果 加 粗 表 示 . 


3.3.3.1 CHN-DF 数据 集 的 复杂 性 和 贴近 真实 场景 水 平 验证 


E CHN-DF 数据 集 的 复杂 性 和 贴 
生 能 


gt 


£H 


11 种 人 脸 视频 防伪 检测 的 基准 评测 模型 (区 分 集成 方法 中 硬 投票 和 软 投 票 机 


制 ) 的 共 44 项 指标 结果 中 ,在 CHN-DF 中 的 指标 结果 共有 32 项 低 于 在 


FakeAVCeleb 中 的 指标 结果 . 且 基 准 人 脸 视 频 防 伪 检 测 模型 在 CHN-DF 的 四 种 指 
标 结果 集中 在 0.6 以 下 .在 侧重 关注 防伪 问题 场景 的 Precision 与 Recall 指标 ,以 及 


分 别 适用 于 正 负 样本 平衡 与 失衡 的 Accuracy 和 Fl-score 上 ,人 脸 视 频 防伪 检测 基 


"m 


准 评测 模型 在 CHN-DF 中 性 能 相 较 于 在 FakeAVCeleb 上 表现 不 佳 ,面临 的 防伪 人 


务 更 复杂 、 更 具 挑 战 性 . 


日 此 也 验 订 


KE, 更 有 利于 推动 性 能 更 好 的 深度 防伪 检测 方法 研发 . 
3.3.3.2 面向 人 脸 视 频 防伪 检测 的 基准 评测 模型 性 能 分 析 

AVoiD-DF 在 CHN-DF fil FakeAVCeleb 中 均 取 得 了 最 佳 性 能 结果 ,防伪 效果 最 
优 .可 能 的 原因 是 AVoiD-DF 相 较 于 其 他 基准 人 脸 视 频 防伪 检测 模型 ,在 基于 视听 


联合 学 习 模 块 引 入 的 多 模 态 联合 解码 MMD 中 ,使 用 MMD 模块 进行 模 态 副 


较 于 其 他 多 模 态 方法 模 态 角 


Ff CHN-DF 数据 集 的 复杂 性 和 贴近 真实 场景 


he FA 
th 24 #4, AVoID-DF 中 输入 的 视觉 和 音频 嵌入 块 是 通 


过 两 个 并 行 解 码 器 通道 馈送 ,每 个 通道 都 有 一 个 双向 交叉 注意 (BiCroAtb 模 块 ,之 
后 有 自 注 意 力 块 和 前 馈 层 .这 使 得 两 种 模 态 之 间 有 具备 更 好 的 信息 共享 与 联合 学 习 


可 能 的 原因 是 AVoiD-DF 作为 基于 视听 联合 学 习 的 人 脸 视 频 防 伪 检 测 方法 ,在 面 
对 伪造 视觉 -伪造 听觉 (VEAB) 情 况 时 (如 Wav2Lip 将 动态 的 视频 进行 层 形 转换 , 实 
现 唇 形 动作 与 输入 语音 匹配 的 视频 ) 面 部 与 音频 的 内 在 相关 性 会 被 破坏 ,同时 
CHN-DF 相 较 于 FakeAVCeleb 在 VFAF 中 采用 更 为 复杂 的 伪造 手段 ,因此 
AVoiD-DF 在 视听 伪造 信息 更 为 复杂 的 CHN-DF 中 面 对 VFAF 类 别 数据 时 指标 结 
果 较 低 ; 

MesolInception-4 在 基于 集成 方法 的 人 脸 视 频 防伪 检测 基准 评测 模型 中 防伪 
效果 最 优 ,可 能 的 原因 是 MesoInception-4 针对 伪造 视频 中 伪造 方法 只 能 合成 有 限 
分 辩 率 的 人 脸 图 像 并 且 必 须 对 其 进行 仿 射 变换 以 匹配 源 人 脸 的 配置 这 一 视频 属 
性 ,使 用 变 体 inception 模块 关注 仿 射 变换 中 扭曲 面 区 域 和 周围 环境 的 分 辨 率 不 一 
致 而 产生 的 伪 影 .然而 MesoInception-4 在 处 理 采 用 FOMM 和 Motion-cos 等 基于 
面部 重 现 的 伪造 视频 时 ,由 于 面部 重 现 技术 并 不 仅 是 将 人 脸 区 域 进行 仿 射 变换 , 面 
部 重 现 更 注重 通过 保留 目标 人 物 的 身份 来 应 用 源 人 物 的 特征 ,而 面部 交换 更 注重 
在 两 个 图 像 之 间 进 行 面 部 特征 的 交换 .因此 面部 重 现 技 术 产 生 的 伪 影 并 不 等 同 于 
面部 交换 过 程 中 产生 的 伪造 痕迹 ,MesoInception-4 在 处 理 通 过 FOMM 和 
Motion-cos 生成 的 伪造 视频 存在 局 限 性 ,导致 指标 结果 较 低 ; 

Multimodal-2 与 Xception 在 CHN-DF 和 FakeAVCeleb 中 指标 结果 较 低 ,在 
CHN-DF 中 各 项 指标 结果 在 0.52 以 下 ,造成 这 种 结果 的 一 个 可 能 原因 是 
Multimodal-2 与 Xception 是 计算 机 视觉 领域 通用 分 类 模型 ,在 各 种 分 类 任务 中 能 
够 取得 良好 的 结果 ,但 可 能 是 由 于 其 预 训练 权重 和 特定 任务 之 间 的 领域 差异 ,而 不 
一 定 适 用 于 视频 数据 中 的 复杂 特征 和 动态 变化 . 另 一 方面 ,由 于 人 脸 视 频 防伪 检测 
任务 涉及 到 更 丰富 的 信息 ,包括 面部 表情 、 姿 势 等 因素 ,这 可 能 导致 了 通用 分 类 模 
型 在 该 任务 上 的 性 能 不 佳 . 

此 外 ,在 面向 人 脸 视频 防伪 检测 的 基准 评测 模型 中 多 模 态 方法 优 于 集成 方法 
的 性 能 结果 ,可 能 的 原因 是 相 较 于 集成 方法 中 多 个 单 模 态 分 类 器 模型 组 成 整体 模 
型 的 思路 ,多 模 态 方法 在 处 理 人 脸 视频 伪造 数据 时 考虑 到 视觉 与 听觉 之 间 的 相关 
性 与 一 致 性 信息 .相对 于 单 模 态 (视觉 或 听觉 ) 的 伪造 ,伪造 方法 在 自 改 视觉 与 听觉 
之 间 相 关 性 的 特征 时 难度 更 大 ,使 得 伪造 的 效果 更 易于 捕捉 ,所 以 视觉 与 听觉 之 间 
的 相关 性 特征 能 够 为 人 脸 视频 防伪 检测 模型 提供 更 明显 的 检测 特征 ,因此 在 处 理 
具备 多 模 态 信息 的 人 脸 视 频 伪 造 数据 中 多 模 态 方法 防伪 检测 效果 更 优 . 

3.3.4 跨 数据 集 防伪 方法 对 比 实验 

为 了 评估 CHN-DF 数据 集 的 质量 和 衡量 基准 人 脸 视频 防伪 检测 模型 的 泛 化 
性 能 ,进行 跨 数 据 集 防伪 方法 对 比 实验 .实验 使 用 基准 模型 在 FakeAVCeleb 进行 训 
练 并 在 CHN-DF 上 进行 测试 .通过 在 FakeAVCeleb 上 进行 训练 ,模型 能 够 学 习 人 脸 
伪造 视频 的 数据 分 布 ,在 CHN-DF 上 进行 测试 能 够 提供 模型 在 与 训练 集 不 同 分 布 
上 数据 中 的 性 能 表现 .有 助 于 验证 模型 在 面 对 未 知 数据 时 的 鲁 棒 性 和 泛 化 性 ,同时 
在 FakeAVCeleb 上 的 训练 模型 与 在 CHN-DF 上 的 训练 模型 的 测试 结果 对 比 也 可 
评估 CHN-DF 数据 集 的 质量 . 

11 种 人 脸 视 频 防伪 检测 模型 在 以 FakeAVCeleb 为 训练 集 并 以 CHN-DF 为 测 
试 集 的 跨 数 据 集 防伪 任务 中 各 项 指标 明显 降低 ,表明 模型 在 CHN-DF 中 面 对 了 更 
复杂 和 更 具 挑 战 性 的 伪造 数据 ,由 此 进一步 验证 了 CHN-DF 数据 集 的 复杂 性 和 贴 
近 真 实 场景 水 平 . 


AA 跨 数 据 集 防伪 方法 对 比 实验 


Methods Year Acc. Precision Recall Fl-score 
Meso-4(Soft- Voting) 2021 0.4007 0.3844 0.4998 0.4345 
Meso-4(Hard-Voting) 2021 0.4135 0.3321 0.4463 0.3808 


Mesolnception-4(Soft-Voting) 2021 0.4117 0.4100 0.4133 0.4116 
Mesolnception-4(Hard-Voting) 2021 0.4002 0.3911 0.4035 0.3972 
Xception(Soft- Voting) 2021 0.3971 0.2134 0.4299 0.2852 
Xception(Hard-Voting) 2021 0.3971 0.2134 0.4299 0.2852 


Multimodal-2 2021 0.4145 0.3423 0.3997 0.3687 
CDCN 2021 0.3784 0.3312 0.4521 0.3823 
MDS 2020 0.5223 0.6487 0.4033 0.4973 
VFD 2022 0.6011 0.5877 0.5301 0.5574 
AVoiD-DF 2023 0.5997 0.6003 0.4983 0.5445 


K 4 展示 了 跨 数 据 集 防 伪 方 法 对 比 实验 结果 ,结合 表 3 在 CHN-DF 数据 集 多 
模 态 防伪 方法 对 比 实验 结果 ,可 以 发 现 由 于 数据 集 之 间 数 据 的 来 源 不 同 ,在 跨 数据 
集 的 防伪 任务 中 11 种 人 脸 视 频 防 伪 检 测 模型 性 能 指标 有 明显 的 下 降 . 其 中 
MesoInception-4 指标 结果 下 降 最 为 显著 ,可 能 的 原因 是 MesoInception-4 在 
FakeAVCeleb 中 缺少 基于 面部 重 现 的 伪造 视频 的 训练 ,导致 通过 捕捉 伪 影 进行 视 
频 防伪 检测 的 局 限 更 加 明显 ;VFD 在 跨 数据 集 的 防伪 任务 中 指标 虽 有 下 降 但 取得 
最 优 的 防伪 效果 ,可 能 的 原因 是 VFD 的 微调 (fine-tune) 机 制 是 基于 预 训 练 模型 进 
行 微调 ,因此 可 以 快速 适应 新 的 任务 或 数据 集 ;Multimodal-2、Xception 以 及 MDS 
在 跨 数据 集 的 防伪 任务 中 指标 下 降幅 度 较 低 , 可 能 的 原因 是 Multimodal-2 与 
Xception 作为 通用 分 类 模型 虽然 不 一 定 适用 于 视频 数据 ,但 Multimodal-2 与 
Xception 良好 的 泛 化 性 能 使 得 模型 在 跨 数 据 集 任务 中 指标 波动 幅度 降低 . 


4. 面 临 挑战 与 发 展 方向 


伪造 与 伪造 检测 是 相互 对 立 与 辅助 关系 的 复杂 关系 ,为 了 应 对 快速 发 展 的 人 
脸 视频 伪造 技术 ,人 脸 视频 防伪 检测 检测 技术 也 取得 了 长 足 的 发 展 .然而 , 随 着 
AIGC 迅速 发 展 ,伪造 技术 已 经 可 以 生成 高 逼真 图 像 与 视频 ,给 人 脸 视频 伪造 检测 
技术 带 来 较 大 的 神 击 .当前 阶段 ,人 脸 视 频 伪 造 检测 技术 发 展 已 经 落后 伪造 技术 发 
展 一 大 步 ,如 何 精 准 检测 伪造 人 脸 视 频 面 临 着 巨大 的 挑战 .因此 , 贴 合 真实 场景 的 
人 脸 视 频 防伪 检测 数据 集 ,对 于 研发 防伪 效果 更 优 的 检测 模型 是 十 分 必要 且 重 要 
的 ;此 外 , 现 有 人 脸 防 伪 数 据 集 以 欧美 人 为 主 ,国际 上 缺少 中 文 数据 防 伪 数 据 集 , 因 
此 构建 面向 人 脸 视 频 防伪 检测 检测 的 大 规模 中 文 数据 评测 基准 ,对 于 深度 防伪 技 
术 的 发 展 有 重要 的 推动 作用 . 

4.1 基 准 数 据 集 构建 局 限 性 分 析 

本 文 构建 的 首 个 面向 人 脸 视频 防伪 检测 的 大 规模 中 文 数据 评测 基准 ,在 真实 
性 、 多 样 性 、 准 确 性 、 对 抗 性 等 方面 仍 存在 诸多 挑战 ,如 何 针对 这 些 挑 战 ,构建 更 
优质 的 数据 评测 基准 数据 集 , 对 于 推动 深度 防伪 检测 技术 高 质量 发 展 有 着 重要 的 
意义 .基准 评测 数据 集 构建 当前 存在 的 主要 局 限 如 下 : 

(1) 深 度 伪造 技术 局 限 :AIGC 的 发 展 使 得 图 像 生成 (AI 绘画 ) 和 视频 生成 效果 
更 通 真 ,然而 现 有 的 AICG 伪造 技术 在 生成 长 视频 方面 仍 存 在 少量 问题 i) 讲 话 人 
说 话 期 间 存 在 面部 短暂 性 闪烁 现象 ; 边 存 在 伪造 面部 区 域 边 缘 模 糊 的 情况 ; 壹 ) 面 
部 纹理 的 过 度 平 滑 或 缺乏 细节 ;iv) 头 部 姿势 移动 或 动作 不 自然 ;y) 缺 乏 面 部 遮挡 


物 ,如 眼镜 、 光 照 效 果 等 ;vi) 对 身体 姿态 或 皮肤 颜色 一 致 性 变化 敏感 , 易 造成 身份 泄 
露 :vi 伪造 视频 缺乏 自然 的 情绪 和 语气 停顿 ,会 出 现 呼吸 急促 、 语 气 僵硬 的 现象 . 
这 种 因 伪 造 技 术 带 来 的 瑕 疫 也 同样 是 伪造 检测 技术 需要 关注 学 习 的 特征 ,但 过 度 
关注 这 些 特征 会 导致 仿造 检测 模型 过 拟 合 ,在 真实 应 用 场景 鲁 棒 性 的 不 足 . 同 样 
的 ,这 些 伪造 视频 的 瑕 疲 , 一 定 程度 干扰 了 评测 基准 的 准确 性 与 客观 性 ,但 当前 阶 
段 很 难 避 免 , 现 有 的 生成 技术 生成 结果 很 难保 证 整体 自然 度 、 流 畅 性 与 连续 一 至 
性 等 贴近 真实 场景 特性 .为 降低 生成 技术 不 足 导 致 的 评测 基准 不 客观 ,本 文 在 构建 
评测 基准 时 通过 人 工 筛选 过 于 明显 瑕 冰 数 据 , 减 少 低 质 量 对 伪造 检测 技术 定量 评 
估 成 效 的 干扰 .人 脸 视 频 防伪 检测 . 

(2) 语 音 数 据 缺 乏 多 样 性 : 现 阶 段 人 脸 视频 防伪 检测 领域 评测 基准 中 缺乏 语音 
数据 ,在 语音 数据 多 样 性 方面 难以 保证 ,语音 伪造 技术 缺乏 包含 多 种 情感 表达 的 语 
音 数 据 , 使 得 评测 基准 无 法 充分 履 盖 对 情感 检测 的 测试 .在 多 样 化 文化 背景 的 语音 
数据 收集 上 也 面临 巨大 挑战 ,尤其 是 在 中 文 数 据 方面 ,中 文 作为 世界 上 使 用 人 数 最 
多 的 语言 ,涵盖 多 个 方言 和 口音 ,而 且 不 同 地 区 和 社会 群体 的 语音 表达 方式 各 异 . 
不 同 语音 风格 和 口音 数据 的 缺乏 可 能 导致 评测 基准 在 应 对 特定 口音 或 语音 风格 
时 的 不 足 .因此 ,构建 覆盖 多 样 性 、 个 性 化 的 语音 数据 样本 ,也 是 本 文 未 来 工作 的 主 
Bey AZ. 

(3) 标 签 缺 乏 准 确 性 :有 效 的 人 脸 视频 防伪 检测 评测 基准 建立 在 能 够 贴近 现实 
生活 场景 的 数据 集 基 础 之 上 ,贴近 现实 生活 场景 的 数据 集 需 要 准确 的 标签 ,然而 大 
规模 的 标注 可 能 导致 标签 缺乏 准确 性 ,特别 是 在 深度 伪造 的 场景 下 ,标注 人 员 在 标 
注视 频数 据 时 可 能 导致 标签 的 主观 性 和 不 一 致 性 ,例如 ,对 于 AIGC 创造 的 高 质量 
伪造 视频 ,人 工 标注 会 出 现 耗 费 大 量 时 间 但 标签 缺乏 准确 性 的 情况 ;在 标注 细 粒 度 
标签 时 , 细 粒 度 的 标签 需要 标注 人 员 对 伪造 技术 有 深入 研究 和 专业 知识 ,标注 人 员 
可 能 无 法 准确 地 识别 所 有 细节 .这 些 标签 的 主观 性 和 不 一 致 性 情况 会 导致 数据 集 
在 制作 的 过 程 中 面临 标签 缺乏 准确 性 的 挑战 . 

(4) 难 以 抵挡 对 抗 性 攻击 :人 脸 视频 防伪 检测 评测 基准 中 缺乏 对 抗 性 攻击 , 现 
实 场景 中 攻击 者 在 制作 伪造 人 脸 视频 的 同时 也 会 考虑 如 何 加 入 对 抗 性 攻击 达到 
降低 检测 效果 的 目的 ,如 刻意 调整 光线 强度 增加 模型 提取 视觉 特征 的 难度 等 等 , 导 
致 训 练 出 的 防伪 模型 容易 受到 对 抗 性 攻击 的 影响 ,这 些 复杂 场景 情况 在 人 脸 视 频 
防伪 检测 评测 基准 的 构建 过 程 中 难以 有 效 考 虑 并 覆盖 到 ,导致 在 面 对 现 实 场景 时 
伪造 检测 算法 面临 巨大 的 挑战 . 

4.2 人 脸 视频 防伪 检测 技术 面临 挑战 

人 脸 视频 防伪 检测 评测 基准 与 人 脸 视频 防伪 检测 技术 在 攻防 中 互相 促进 、 共 
同 发 展 ,构成 人 脸 视频 防伪 检测 领域 的 予 与 盾 .AIGC 的 快速 发 展 使 得 现 有 人 脸 视 
频 防 伪 检 测评 测 基 准 难 以 适应 形势 变化 的 同时 ,针对 人 脸 视 频 防 伪 检 测 技术 的 研 
究 同 样 面临 诸多 挑战 .人 脸 视 频 防伪 检测 检测 技术 当前 面临 的 主要 挑战 如 下 : 

(1) 大 模型 生成 内 容 检测 困难 :人 脸 视 频 伪 造 技术 发 展 之 初 ,伪造 视频 中 普遍 


视频 伪造 内 容 检 测 更 加 困难 .以 ChatGPT 4.0 与 DALL-E 为 代表 的 面向 视频 内 容 
生成 大 语言 模型 的 出 现 !6631 使 得 人 脸 生 成 也 随 之 迎 来 新 一 轮 发 展 .凭借 扩散 模型 
通过 训练 神经 网 络 来 逆转 添加 高 斯 噪声 带 来 的 纯 噪 声 , 即 从 纯 噪 声 中 合成 数据 直 
到 产生 干净 样本 吃 的 机 制 ,使 得 人 脸 视频 防伪 检测 技术 难以 捕捉 视频 伪造 线索 . 
给 人 脸 视频 伪造 检测 任务 带 来 巨大 挑战 . 

(2) 难 以 应 对 复杂 场景 伪造 内 容 :复杂 场景 的 多 样 性 增加 了 人 脸 视频 防伪 检测 


任务 的 复杂 性 .真实 场景 下 人 脸 视频 防伪 检测 工作 易 受 环境 因素 干扰 ,例如 ,光照 
条 件 的 改变 可 能 使 人 脸 的 阴影 和 高 光 区 域 发 生变 化 ,使 得 人 脸 看 起 来 更 暗 或 更 亮 . 
摄像 机 角度 的 改变 可 能 导致 人 脸 的 形状 和 特征 发 生 畸 变 ,使 得 人 脸 看 起 来 扭曲 或 
失真 .此 外 ,背景 复杂 性 的 变化 也 可 能 导致 人 脸 的 边缘 模糊 或 与 背景 融合 ,使 得 人 
脸 看 起 来 不 清晰 或 不 成 比例 .以 上 这 些 因素 都 会 对 人 脸 视 频 的 真实 性 和 可 信 度 产 
生 影 响 , 增 加 人 脸 视 频 防 伪 检 测 工作 识别 和 检测 的 困难 度 . 
(G3) 泛 化 性 能 差 : 现 阶段 针对 单一 人 脸 视 频 防 伪 检 测 数据 集 防 伪 检 测 技术 防伪 
效果 虽然 较为 理想 ,但 在 跨 数据 集 防 伪 效 果实 验 中 泛 化 性 能 仍 表现 出 明显 的 不 足 
同时 在 现实 场景 下 由 于 面 对 人 脸 视 频 伪 造 方法 未 知 ,难以 获得 伪造 方法 的 具体 类 
型 ,因此 在 利用 己 有 的 人 脸 视 频 防 伪 检 测 预 训练 模型 执行 现实 场景 下 的 视频 内 容 
伪造 检测 任务 时 ,检测 结果 可 信和 度 难 以 保证 . 
(4) 防 伪 检 测 任务 单一 :目前 人 脸 视频 防伪 检测 任务 侧重 于 对 视频 级 伪造 内 容 
检测 ,检测 任务 粗糙 .在 现实 场景 下 攻击 者 为 了 算 改 视频 信息 内 容 , 往 往 仅 针对 人 


防伪 模型 在 面 对 大 量 视频 帧 或 音频 段 中 容易 忽略 伪造 段 特征 信息 ,导致 检测 任务 
误 判 的 概率 大 大 增加 . 
4.3 发 展 方向 

近年 来 ,针对 人 脸 视频 防伪 检测 领域 的 研究 已 经 取得 显著 的 成 果 , 但 领域 内 依 
然 存 在 诸多 难点 孤 需 解决 .为 了 应 对 日 益 双 真 的 伪造 人 脸 视频 ,本 文 聚 焦 人 脸 视 频 
防伪 检测 技术 与 基准 评测 ,为 领域 的 发 展 提供 新 的 视角 与 方向 .在 基准 评测 中 可 以 
从 客观 量化 以 及 基准 数据 动态 更 新 角度 上 思考 ;在 防伪 技术 方面 ,可 以 从 构建 防伪 
自主 进化 机 制 以 及 注重 防伪 模型 鲁 棒 性 出 发 构思 未 来 的 发 展 方向 .此 外 ,促进 人 脸 
视频 防伪 检测 发 展 的 同时 也 应 充分 考虑 数据 隐私 保护 与 社会 影响 .具体 内 容 如 下 : 

(评测 基准 客观 量化 :在 AGC 技术 发 展 带 来 的 日 益 复 杂 、 逼 真 视频 内 容 伪 
造 情境 下 , 现 有 的 评测 基准 却 依 赖 于 特定 的 模型 性 能 评估 指标 结果 ,这 会 造成 评测 
基准 的 角度 局 限 性 .因此 在 真实 场景 中 ,需要 设计 能 够 精准 量化 防伪 模型 多 角度 的 
防伪 检测 能 力 甚 至 是 模型 的 自 适应 性 能 力 ,是 未 来 评测 基准 构建 的 重要 探索 方向 
TT 

(2) 基 准 数据 动态 更 新 :在 设计 评测 基准 时 ,需要 充分 考虑 到 复杂 多 样 的 人 脸 
视频 伪造 类 别 的 存在 .因此 定期 更 新 基准 数据 集 以 纳入 最 新 的 伪造 技术 可 以 帮助 
评测 基准 贴近 错综复杂 的 现实 场景 ,考虑 整合 用 户 的 反馈 数据 可 以 为 基准 数据 集 
的 动态 更 新 提供 新 思路 .此 外 , 随 着 深度 伪造 技术 的 不 断 演进 ,建立 动态 的 标签 更 
新 机 制 以 应 对 新 的 深度 伪造 技术 和 生成 模型 也 变 得 越 来 越 重 要 . 
(3) 应 对 新 型 伪造 检测 : 随 着 生成 扩散 模型 、 大 模型 等 技术 的 快速 发 展 ,当前 生 
成 视频 质量 越 来 越 贴 近 真 实 视频 ,以 往 针对 合成 伪造 、 生 成 模糊 等 特性 的 防伪 方 
法 ,已 经 无 法 应 对 高 逼真 的 生成 视频 .因此 ,针对 新 型 伪造 人 脸 技术 ,如 何 基于 真实 
与 伪造 视频 本 身 ,以 及 样本 在 模型 中 局 部 特征 相似 性 、 模 型 推断 路 径 等 差异 特性 ， 
设计 相应 防伪 技术 ,是 近 几 年 吸 需 解决 的 难题 . 

(4) 注 重 防伪 模型 鲁 棒 性 :防伪 模型 是 否 具 备 强 鲁 棒 性 是 能 否 在 真实 场景 中 应 
对 复杂 多 变 的 视频 内 容 保持 稳定 性 和 可 靠 性 的 关键 .在 防伪 模型 训练 与 测试 过 程 
中 通过 增加 压缩 率 以 及 噪声 干扰 模拟 真实 场景 分 布 变化 ,使 防伪 模型 在 构建 过 程 
中 具备 应 对 真实 场景 复杂 多 变 视 频 的 高 鲁 棒 性 ;此 外 ,在 训练 与 测试 过 程 中 加 入 对 
抗 性 样本 也 是 促进 模型 具备 强 鲁 棒 性 的 一 种 方式 .然而 ,通过 增加 噪声 、 对 抗 样本 
等 方式 虽然 一 定 程 度 能 够 增强 模型 的 鲁 棒 性 ,但 一 定 程度 也 能 带 来 模型 的 识别 性 


能 损失 ,如 何 从 真实 样本 本 身 特 征 出 发 ,挖掘 伪造 样本 与 真实 样本 间 差 异 ,构建 可 
应 对 任意 伪造 人 脸 视 频 的 检测 方法 , 且 能 够 保证 识别 精准 度 ,是 未 来 的 主要 研究 方 
向 之 一 . 

(5) 自 主 进化 防伪 框架 :伪造 与 防伪 是 相互 对 齐 且 相互 促进 技术 ,伪造 技术 的 
发 展 一 般 要 领先 于 防伪 技术 一 步 ,防伪 技术 在 技术 与 性 能 上 的 落后 ,导致 伪造 人 脸 
视频 对 人 类 社会 带 来 较 大 的 危害 .当前 的 防伪 模型 与 方法 的 设计 主要 依赖 研究 人 
员 分 析 伪 造 技术 的 缺陷 与 不 足 ,并 针对 性 设计 相应 解决 方案 .如 何 针 对 变幻 无 常 的 
伪造 技术 ,借助 于 对 抗 学 习 机 制 、 强 化 学 习 模 型 等 自主 进化 框架 ,设计 能 够 推动 防 
伪 模 型 自主 进化 的 框架 ,提高 快速 应 对 类 型 多 变 的 伪造 视频 能 力 ,是 未 来 的 重点 的 
研究 方 回 之 一 . 

(6) 考 虑 数据 隐私 保护 :基准 评测 数据 集 构建 与 人 脸 视频 防伪 检测 都 需要 充分 
考虑 到 对 敏感 信息 的 隐私 保护 .为 此 可 以 采用 包括 匿名 化 等 技术 手段 在 内 的 隐私 
保护 手段 ,以 确保 在 模型 评测 与 应 用 过 程 中 不 会 泄露 用 户 的 个 人 隐私 信息 .在 推动 
技术 进步 的 同时 充分 尊重 用 户 的 隐私 权利 ,数据 隐私 保护 是 人 脸 视 频 防伪 检测 领 
域 法 制 日 趋 完 善 过 程 中 不 可 或 缺 的 一 部 分 . 

(7) 推 动 社会 影响 研究 :目前 人 脸 视频 伪造 领域 缺乏 完善 的 法 律 体系 来 实现 对 
伪造 视频 的 精准 管控 ,例如 区 分 具体 的 伪造 视频 是 娱乐 内 容 还 是 恶性 传播 ,因此 需 
要 建立 完善 的 法 律 体系 对 恶意 制作 或 传播 的 互联 网 用 户 进行 一 定 的 惩戒 (5. 深入 
研究 伪造 视频 对 社会 产生 的 潜在 影响 并 进行 社会 伦理 研究 可 以 更 全 面 地 理解 这 
一 技术 的 社会 影响 并 推动 领域 的 可 持续 发 展 .这 种 关注 不 仅仅 局 限于 技术 层面 ,更 
需要 注重 在 技术 发 展 的 同时 充分 考虑 社会 责任 . 


5. 总 结 


在 AIGC 时 代 人 脸 视频 生成 领域 的 信息 存在 真实 性 验证 困难 的 环境 下 ,本 文 
提出 了 面向 人 脸 视 频 防伪 检测 的 大 规模 中 文 数据 评测 基准 ,发 布 了 全 球 首 个 面向 
人 脸 视 频 防伪 检测 的 大 规模 中 文 数据 集 一 一 CHN-DF, 填 补 人 脸 视 频 防伪 检测 数 
据 集 大 规 模 中 文 数据 的 空白 ,本 文 详细 介绍 了 构建 CHN-DF 数据 集 以 及 中 文 数据 
评测 基准 的 流程 ,并 针对 主流 防伪 检测 方法 进行 了 对 比 实验 ,从 基准 评测 模型 性 
能 、 跨 数据 集 泛 化 性 能 等 方面 分 析 了 现 有 人 脸 视 频 防伪 检测 方法 的 优 劣 .此 外 ,大 
量 的 实验 也 验证 了 CHN-DF 数据 集 的 复杂 性 和 贴近 真实 场景 水 平 ,希望 面向 人 脸 
视频 防伪 检测 的 大 规模 中 文 数据 评测 基准 ,能 够 帮助 研究 人 员 构 建 性 能 更 为 优异 
的 人 脸 视 频 防伪 检测 模型 ,成 为 未 来 人 脸 视 频 防伪 检测 领域 研究 的 基石 .同时 ,本 
文 还 指出 了 中 文人 脸 视频 防伪 检测 数据 集 以 及 人 脸 视频 防伪 检测 评测 基准 当前 
面临 的 挑战 以 及 未 来 发 展 方向 ,希望 为 推动 人 脸 视 频 防伪 检测 领域 技术 发 展 提供 
新 的 视角 与 方向 . 
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